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摘 要 : 针对 目前 大 数据 快速 增加 的 环境 下 ， 海 量 数据 的 频繁 项 集 挖 据 在 实际 中 所 面临 的 增 量 更 新 问题 ， 在 频繁 项 超 
度量 树 算 法 〈frequent items ultrametric trees，FIUT) 的 基础 上 ， 引 入 MapReduce 并 行 编程 模型 ， 提 出 了 一 种 针对 频繁 
项 集 增 量 更 新 的 面向 大 数据 的 并 行 算 法 。 该 算法 通过 检查 频繁 超度 量 树叶 子 节点 的 支持 度 来 确定 频繁 项 集 ， 同 时 采用 
准 频 繁 项 集 的 策略 来 优化 并 行 计算 过 程 ， 从 而 提高 数据 挖掘 效 率 。 实 验 结果 显示 ， 所 提出 的 算法 能 快速 完成 扫描 和 更 
新 数据 ， 具 有 较 好 的 可 扩展 性 ， 适 合 于 在 动态 增长 的 大 数据 环境 中 进行 关联 规则 相关 数据 挖 据 。 
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Incremental updating algorithm of parallel frequent itemsets based on FIUT 


Zhang Hang, Zhang Xin', Zhang Pingkang, Li Qi 
(College of Big Data & Information Engineering Guizhou University, Guiyang 550025, China) 


Abstract: With the rapid increase in the big data environment, frequent itemsets data mining faces in the actual incremental 
update problem. This paper proposes a parallel incremental updating algorithm based on MapReduce for frequent itemsets in 
frequent items ultrametric trees. The algorithm utilizes the support of frequent check ultrametric tree leaf node to determine the 
frequent itemsets and frequent itemsets using quasi strategies to optimize the parallel computing process, So as to improve the 
efficiency of data mining. According to the compared experiment results, it shows that the proposed algorithm is able to scan 
and update data efficiently, and has good scalability. It can be used for mining association rules in the incremental big data 
environment. 
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研究 方向 之 一 册 。 在 目前 大 数据 的 实际 应 用 中 ， 单 机 平台 面临 ”算法 在 MapReduce 计算 框架 上 的 移植 中 。 杨 勇 等 人 提出 基于 
数据 在 存储 能 力 、 处 理 能 力 和 挖掘 上 都 面临 显而易见 的 瓶 。 MapReduce 的 并 行 增 量 更 新 算法 ， 通 过 引入 分 块 索 引 提 高 挖 


二 
IT 人 。 


而 通过 并 行 化 的 方式 ， 不 仅 能 有 效 解 决 内 存 不 足 的 问题 ， 效率 , 同时 采用 负载 均衡 策略 保证 集群 节点 之 间 的 负载 均衡 外。 
还 能 极 大 地 提升 挖掘 效率 。 另 一 方面 ， 当 新 数据 增加 后 ， 或 会 针对 海量 数据 的 关联 规则 挖掘 过 程 中 存在 的 增 量 更 新 问题 ， 


= 挖掘 算法 越 来 越 成 为 学 界 、 实 务 界 的 关注 热点 。 结 合 MapReduce 

， 编程 模型 , 研究 者 们 从 减少 MapReduce 任务 数 、 候 选项 集 数量 、 
关联 规则 的 数据 挖掘 作为 数据 挖掘 的 重要 方面 之 一 ， 主 要 行 节点 之 间 的 通信 量 等 多 个 角度 对 并 行 化 算法 效率 进行 了 提 

用 于 对 大 量 数据 中 项 集 进行 相关 分 析 ， 是 数据 挖掘 领域 重要 的 升 外 。Li 等 人 提出 了 并 行 FP-Growth 算法 ， 实 现 了 FP-Growth 


加 


导致 原始 数据 处 理 结果 不 再 准确 ， 而 在 新 的 数据 全 集 上 重新 运 本 文 基于 MapReduce 计算 框架 设计 并 实现 了 一 种 FIUT 关联 规 


行 会 耗费 大 量 的 计算 资源 。 因 此 ， 将 新 增 数据 集 和 已 知 处 理 结 


则 增 量 更 新 算法 。 该 算法 通过 对 传统 FIUT 算法 进行 并 行 化 改 


A 


果 完 成 增 量 更 新 式 的 数据 处 理 , 可 以 极 大 地 提升 数据 处 理 效率 。 ” 进 , 将 其 移植 到 MapReduce 计算 框架 上 , 使 其 在 分 布 式 环境 下 


综 上 ， 将 并 行 处 理 的 思想 与 增 量 更 新 的 方法 进行 结合 利用 具有 完成 对 FIU-tree 的 增 量 更 新 ， 同 时 结合 准 频繁 项 集 的 思想 减少 


重大 的 现实 意义 扫描 原始 事务 数据 库 的 需要 , 提高 了 并 行 计 算 效 率 。 文 章 最 后 ， 


随 着 现在 数据 量 爆炸 式 的 增长 ， 并 行 、 分 布 式 的 关联 规则 ”通过 实验 证 明了 该 算法 的 有 效 性 和 可 扩展 怕 
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1 ”相关 概念 


1.1 FIUT 算法 

FIUT 算法 是 由 Tsay 等 人 2009 年 提出 的 一 种 用 于 在 数据 
库 中 的 频繁 项 集 挖掘 的 算法 外 。 其 算法 基本 类 似 于 FP-Growth 
算法 ， 都 是 通过 两 次 扫描 数据 库 以 得 到 频繁 项 集 ， 使 用 事务 项 
聚 类 来 减 小 搜索 空间 ， 只 有 事务 项 中 的 频繁 项 集 才能 插入 到 
FIU-tree 上 以 压缩 存储 ， 但 所 有 的 频繁 项 的 挖掘 与 FP-Growth 
算法 通过 递归 挖掘 不 同 ， 其 都 是 通过 检查 FIU-tree 上 的 叶子 节 
点 的 计数 得 到 。FIUT 算法 的 主要 思想 及 步骤 可 分 为 三 个 步 又 ， 
分 别 是 生成 频繁 1- 项 集 和 k-itemsets; 建 立 k-FIU-tree; 挖 掘 k- 
FIU-tree。 
1.2 ” 准 频 繁 项 集 
准 频 繁 项 集 (pre-large itemsets) 是 指 未 达到 频繁 项 集 要 求 ， 
但 在 将 来 有 可 能 会 成 为 频繁 项 集 的 项 集 四 。 它 引入 了 两 个 支持 
度 阔 值 : 支持 度 闪 值 下 限 Sr 和 支持 度 闹 值 上 限 Su， 通 过 这 两 


个 阔 值 将 原始 事务 数据 库 增 量 更 新 后 的 所 有 项 集 分 为 九 种 类 别 : 


C1,C2,C3,C4,C5,C6,C7,Cs,C9， 如 图 1 所 示 。 


|] 
RE 


频繁 项 集 ” 准 频 繁 项 集 小 频繁 项 集 
频繁 项 集 ”Case7 Case2 Case3 


(mi 准 频繁 项 集 Case4 Case5 Case6 


小 频繁 项 集 Case7 
图 1 数据 项 集 的 类 别 


Cases Case9 


其 中 , 类别 C1,Cs,Ce,Cs,Co 都 不 会 造成 事务 数据 库 频繁 模式 的 变 
化 ; 类 别 C 和 C3 有 可 能 会 去 除 已 存在 的 关联 规则 ;， 类别 C4 和 
C7 有 可 能 会 增加 新 的 关联 规则 。 
1.3 ”MapReduce 编程 模型 
MapReduce 是 Apache 旗下 的 用 于 处 理 和 产生 大 数据 集 的 
行 计算 编程 模型 。 其 主要 原理 是 利用 一 个 输入 的 键 值 对 集合 ， 
通过 一 系列 处 理 来 产生 一 个 输出 的 键 值 对 集合 。 它 将 对 数据 集 
的 操作 分 解 为 Map 任务 和 Reduce 任务 ， 用 户 可 以 通过 重 写 
mapper 和 reducer 这 两 个 函数 分 发 给 集群 上 的 各 个 节点 来 对 数 
据 进行 处 理 。 每 个 Map 任务 将 输入 的 数据 分 片 分 成 若干 个 键 值 
对 <keyvalue> 的 形式 ，mapper 函数 每 次 处 理 一 个 键 值 对 ， 处 理 
后 就 会 输出 一 个 同样 形式 的 <key,value> 数 据 ， 之 后 MapReduce 
会 将 属于 同一 个 键 的 值 分 发 到 一 起 生成 中 间 结 果 作 为 Reduce 
的 输入 数据 ;而 Reduce 任务 则 是 将 所 得 到 的 具有 相同 key 值 
的 value 集合 交 给 reducer 函数 进行 处 理 并 输出 最 终 的 计算 结 


果 口 。 


2 ”FIUT 增 量 更 新 算法 


本 文 主要 针对 关联 规则 的 海量 数据 挖掘 和 增 量 更 新 问题 ， 
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提出 了 基于 MapReduce 的 FIUT 关联 规则 增 量 更 新 算法 。 该 算 
法 将 求 取 频 繁 项 集 的 操作 主要 分 为 两 个 步 又 a) 针对 原 事务 数 
据 库 DB 进行 数据 分 组 ， 构 建 各 映射 数据 库 ， 利 用 MapReduce 
行 挖 掘 产生 局 部 的 频繁 项 集 和 准 频繁 项 集 并 进行 保存 ， 合 并 
构建 全 局 候选 项 集 ，b) 针 对 新 增 事务 数据 库 进 行 相应 的 增 量 更 
新 ， 利 用 之 前 的 挖掘 结果 合并 新 增 事务 数据 库 进 行 挖掘 ， 完 成 
频繁 项 集 的 增 量 更 新 。 
2.1 原始 数据 库 挖掘 

设 三 {1, 了 2..…,Im} 代 表 事 务 项 数据 库 中 所 有 项 的 集合 。 原 始 
事务 数据 库 设 为 DB={P1,P2,.….Ps}， 其 中 Pi 代表 其 中 的 第 i 条 
事务 记录 ， 它 作为 事务 项 集合 I 的 一 个 项 目 子 集 ，|DB| 代 表 原 
始 事 务 数据 库 中 事务 记录 的 数目 。 新 增 事 务 数据 库 设 为 db, |db| 
代表 新 增 事务 数据 库 中 事务 记录 的 数目 。U 为 增 量 更 新 后 的 整 
个 事务 数据 库 ( 即 DB U db)。S 为 准 频繁 项 目的 支持 度 阔 值 下 
限 ，Su 为 准 频 繁 项 目的 支持 度 阔 值 上 限 ， 其 中 Su>Sr。 

输入 :数据库 DB， 支持 度 阔 值 下 限 Si， 支持 度 闵 值 上 限 
Su. 

输出 : ”数据 库 DB 的 频繁 项 集 和 准 频繁 项 集 ， 数 据 库 DB 
的 1- 项 集 ， 数 据 库 DB 的 头 表 分 组 。 

a) 原始 事务 数据 库 项 目 支 持 度 计数 。 在 Map 阶段 ， 每 个 
Map 任务 读 取 先 事务 数据 库 的 数据 ,之 后 以 HDFS 文件 分 片 为 
单位 对 事务 数据 进行 处 理 ，mapper 函数 输入 为 < key=offset ， 
value=Pi >， 其 中 ，offset 是 一 条 事务 Pi 在 该 分 片 的 偏 移 量 。 
Mapper 函数 的 输出 为 <key=aii ,value=1>， 其 中 ai 是 Pi 中 的 一 
项 。 经 过 Shuffle 阶段 完成 相同 项 的 聚集 和 分 发 ， 在 Map 任务 
进行 完 数据 处 理 后 , 所 有 的 key=aii 的 键 值 对 将 分 配 到 相对 应 的 
Reduce 任务 上 进行 下 一 步 。 在 Reduce 阶段 ，reducer 函数 将 输 
入 到 其 中 的 <key=ai ,value = {1,1,1,…,1} > 的 形式 进行 求 和 ， 统 
计 输 出 相对 应 的 频次 ， 所 有 结果 合并 后 得 到 数据 库 DB 的 1- 项 
集 Ci。 

b) 分 组 生成 。 读 取 步 又 a) 产生 的 1- 项 集 C1， 将 每 一 项 同 
支持 度 阔 值 下 限 S! 和 支持 度 阔 值 上 限 Su 比较 ， 得 到 1- 频 繁 项 
集 Fl 和 1- 准 频繁 项 集 PF1， 修 剪 不 满足 阔 值 要 求 的 项 ， 然 后 将 
Fl 和 PF1 中 的 各 项 分 为 n 个 组 别 ， 每 组 别 都 对 应 一 个 唯一 的 编 
号 id 用 以 互相 区 分 , 标记 所 有 项 所 对 应 的 分 组 号 , 其 分 组 记 为 
G-list。 

©) 并 行 挖掘 频繁 项 集 和 准 频 繁 项 集 。 这 一 过 程 通 过 第 二 次 
MapReduce 任务 完成 。 每 一 个 Map 任务 先 读 取 步骤 b) 所 产生 
分 组 G-list， 这 里 的 G-list 表 使 用 Hash 结构 ， 它 的 每 一 个 项 都 
映射 到 其 所 在 的 事务 数 ， 然 后 根据 G-list 读 取 输入 的 事务 数据 
库 数据 分 片 DBi， 每 条 事务 Pi 都 会 被 分 到 对 应 的 分 组 中 ， 这 时 
map 函数 就 会 输出 多 个 键 值 对 数据 <key=id ,value=P 记 , 键 值 对 
中 所 有 属于 同一 个 分 组 的 事务 记录 将 会 被 分 发 到 同一 个 
reducer 函数 中 , 其 输入 为 <key=id, value={DB DBw, DBa, .….， 
DBr}>。 之 后 每 个 Reduce 任务 根据 其 分 组 的 h- 项 集 和 映射 数 
据 库 {P,P2z.…Pxy 将 其 包含 的 每 一 项 映射 到 相应 的 组 在 本 地 构 
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建 条 件 K-FIU-tree， 进 而 挖掘 出 每 个 分 组 的 频繁 项 集 和 准 频繁 ” 除 已 存在 的 数据 项 集 ; Rescan_Items 可 以 看 做 Insert_Items 的 子 
项 集 ， 最 后 将 每 个 分 组 的 挖 据 结果 进行 合并 得 到 全 局 的 频繁 项 。 集 , 其 项 集 I 在 原始 数据 库 DB 中 为 准 频繁 项 集 或 小 频繁 项 集 
集 和 准 频繁 项 集 。 在 构建 完成 每 个 分 组 的 k-FIU-tree 之 后 ,将 ”在 增 量 更 新 后 数据 库 U 中 为 频繁 项 集 ,是 需要 新 增 的 数据 项 集 。 
其 序列 化 存储 到 HDFS 文件 系统 中 ， 以 备 后 续 的 增 量 更 新 四。 整个 步骤 主要 是 对 HDFS 分 布 式 文件 系统 中 原始 事务 数据 库 
如 图 2 所 示 ， 通 过 上 述 三 个 步骤 ， 完 成 对 原始 事务 数据 库 ”DB 和 新 增 事务 数据 库 db 进行 扫描 ,根据 他 们 之 间 的 频繁 关系 
DB 的 挖掘 ， 计 算出 当前 数据 库 DB 中 所 有 的 频繁 项 集 和 准 频 分别 放 入 上 述 三 个 集合 中 。 


繁 项 集 ， 同 时 记录 并 存储 了 其 每 个 项 目的 支持 度 和 每 个 分 组 的 加 增 量 更 新 每 个 分 组 中 的 JEFIU-tree 并 挖掘 增 量 后 的 频繁 

KEFIU-tree。 项 集 。 首 先 通过 一 个 mapper 函数 对 原始 事务 数据 库 DB 和 新 增 

i 事务 数据 库 db 进行 扫描 , 找到 需要 增 量 更 新 的 事务 , 并 分 发 至 

和 切 分 特定 的 分 组 当中 ， 这 样 属于 同一 分 组 的 事务 记录 就 将 分 发 到 相 

Shard | Shard “+ |Shard 同 的 reducer 函数 中 外。 然后 在 每 个 分 组 的 本 地 更 新 其 分 组 k- 

mp | Map ap 有 FIU-tree， 并 挖掘 出 每 个 分 组 k-FIU-tree 的 新 的 频繁 项 集 ， 最 后 

7 OO ee 将 更 新 后 的 分 组 k-FIU-tree 合并 得 到 增 量 更 新 后 的 全 局 结果 并 
TS 序列 化 存储 到 HDFS 文件 中 。 

总 频繁 项 分 组 如 图 3 所 示 ， 通 过 上 述 三 个 步骤 ， 完 成 在 MapReduce 环境 


ea 对 k-FIU-tree 进行 增 量 更 新 ， 


Nap | Me 挖掘 出 增 量 后 的 频繁 项 集 。 
Reduoe Reduce TReduce Incremental Data 
ee ] 一 一- 切 分 
groupl | groupy 和 groupg 原始 频繁 项 集 挖掘 Shard Shard | 本 Shard 
家 ph RA Map Map 人 Map 并 行 计 数 
全 局 频繁 项 集 、 准 频繁 项 集 ee bs 
A a 13 Se a 组 调整 
图 2 原始 数据 库 安 掘 流程 图 Jnsert Delete_Items ‘can_Items 分 a 
2.2 ”新 增 事 务 数据 库 的 增 量 更 新 人 二 Ue 
二 一 必 
为 了 方便 迭代 增 量 更 新 及 数据 计算 的 统一 性 ， 设 在 增 量 Reduce|Reduce Reduce 
人 本 ] | | 全 局 频繁 项 集 挖掘 
新 关联 规则 挖掘 的 过 程 中 ， 其 新 增 数据 库 db 也 分 散 地 存储 在 ee . 网 果 


集群 上 的 各 个 节点 上 。 此 时 其 增 量 更 新 的 主要 步 又 如 
输入 : 事务 数据 库 DB 及 其 所 有 频繁 项 集 和 准 频 繁 项 集 ， 
新 增 事 务 数据 库 db， 支持 度 闵 值 下 限 Si， 支持 度 闵 值 上 限 Su. 
a ea 后 的 频繁 模式 。 和 3 ”实验 结果 分 析 
a) 新 增 事务 数据 库 项 目 支 持 度 计数 。 通 过 进行 一 次 
MapReduce 任务 来 读 入 新 增 事 务 数据 库 db, 统计 新 增 数据 库 db ”3.1 实验 数据 与 运行 环境 
中 的 支持 度 计 数 。 其 Map 任务 和 Reduce 任务 阶段 同 2.1 节 的 本 文 实验 采用 Frequent Itemset Mining Dataset repository 上 
步骤 a) 类似 ， 首 先 定位 输入 的 事务 记录 文件 到 新 增 记录 行 ， 然 所 提供 的 Webdocs.dat.gz 作为 实验 数据 集中 但， 该 数据 集 大 小 
后 在 mapper 函数 中 对 新 增 事 务 数据 库 进行 扫描 ， 之 后 通过 约 为 1.48 GB， 它 包含 了 1 692 082 个 事务 项 的 共 5 267 656 条 
reducer 函数 统计 求 和 得 到 每 个 项 目 在 db 中 的 支持 度 计数 ， 也 记录 ， 最 大 的 事务 长 度 约 为 71.472。 实 验 中 将 数据 随机 的 分 为 
即 db 的 1- 项 集 CT 。 5 组 ， 每 组 数据 大 小 约 为 300 MByte， 每 次 递增 20% ( 约 340 
b) 分 组 调整 。 读 取 步 又 a) 生 成 的 结果 CL, 根据 支持 度 阔 值 000 条 事务 项 ) 作为 其 新 增 事 务 数 据 库 ， 支 持 度 阔 值 下 限 设 置 
上 下 限 将 新 增 事务 集 分 别 划分 为 三 部 分 , 根据 DB 和 db 事务 数 ”为 3%， 支 持 度 阔 值 上 限 设置 为 5%。 
据 库 项 目的 频繁 关系 对 db 中 的 项 目 进行 分 组 , 设 Insert_Items， 本 文 实验 采用 的 MapReduce 并 行 计 算 环境 是 由 5 个 节点 
Delete Items, Rescan Items 为 三 个 集合 , 集合 中 的 元 素 为 db 中 组 成 的 主 从 式 Hadoop 集群 ， 其 中 一 个 节点 作为 NameNode 和 
项 集 的 子 集 。 其 中 Insert _ Items 中 项 集 工 在 增 量 更 新 后 为 数据 库 JobTracker， 其 他 节点 作为 DataNode 和 TaskTracker。 每 个 节点 
U 的 频繁 项 集 ; Delete_Items 中 项 集 I 在 原始 事务 数据 库 DB 中 均 保持 相同 的 硬件 配置 和 软件 配置 ， 其 中 CPU 采用 Intel Core 
原 为 频繁 项 集 ， 但 在 新 增 事务 数据 库 db 中 为 准 频繁 项 集 或 小 i5 处 理 器 , 主 频 2.5 GHZ, 计算 机 内 存 大 小 为 4GB, 硬盘 大 小 为 
频繁 项 集 ， 在 增 量 更 新 后 为 数据 库 U 的 非 频 繁 项 集 ， 是 需要 删 160GB , 操作 系统 采用 Centos7 版 本 , Hadoop 采用 2.6.0 版 本 ， 


增 量 更 新 频繁 项 集 


图 3 ” 增 量 更 新 数据 挖掘 流程 
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Mahonut 咱 


采用 jdk-7u79-linux-x64 版 本 ，SSH 采 


Sr 


本 ， 集 群 使 用 默认 的 配置 参数 。 
3.2 算法 性 能 分 析 

在 分 布 式 并 行 计算 环境 下 ， 对 于 增 量 更 新 后 的 数据 集 的 规 
则 挖掘 常用 的 有 两 种 形式 ， 一 种 是 将 原始 习 
务 数据 库 合 并 ， 直 接 对 增 量 更 新 后 的 总 数据 库 进 行 整体 的 数据 
昌 ， 另 一 种 则 是 利用 己 有 的 数据 库 挖 掘 结 果 ， 在 其 基础 之 


iil 
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] OpenSSH 5.8 版 


Chin naXiy 合 作 振 上期 有 和， 


张 航 ， 等 : 基于 FIUT 的 并 行 频繁 


8 编程 模型 的 关联 规则 并 行 增 量 更 新 算法 。 本 文 算法 


过 查看 频繁 超度 量 树叶 子 节点 的 支持 度 确定 频繁 项 集 ， 同 时 


j 准 频繁 项 集 的 策略 来 优化 并 行 计 算 过 程 ， 从 而 提高 数据 控 


务 数据 库 同 新 增 事 


新 增 数 据 库 进行 增 量 更 新 。 其 中 采用 第 一 种 形式 的 有 
F 源 平台 所 提供 的 PFP-Growth 算法 ， 本 文 并 行 化 算法 


ul 


采用 第 二 种 形式 。 实 验 对 这 两 种 算法 进行 了 比较 分 析 ， 结 果 如 


到 4 所 示 
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图 4 增 量 更 新 性 能 比较 
图 4 可 以 看 出 ， 在 Hadoop 计算 环境 下 ， 随 着 数据 增 量 
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断 增 加 ， 本 文 算法 所 消耗 的 时 间 相 比 于 PFP-Growth 算法 
于 本 文 算法 在 每 次 增 量 更 新 阶段 只 用 对 新 增 事务 数据 
库 进行 扫描 ， 在 很 大 程度 上 节省 了 扫描 和 统计 资源 消耗 ， 从 而 


较 好 地 提升 了 挖掘 效率 。 同 时 ， 随 着 事务 数据 量 的 递增 ， 本 文 
算法 所 消耗 的 时 间 开销 增幅 较为 稳定 , 保持 了 较 好 稳定 的 性 


和 
上 ， 实 验 结果 证 明了 本 文 算法 在 Hadoop 环境 下 能 很 好 地 


成 数 

为 了 验证 本 文 算法 的 可 扩展 性 ， 原 始 事务 数据 库 选 为 
Webdocs.dat 中 80% 的 记录 ( 共 4214 125 条 事务 项 )， 剩 余数 据 
库 20% 的 记录 作为 新 增 事 务 数据 库 , 支 持 度 阔 值 下 限 设置 为 3%， 
支持 度 闵 值 上 限 设 置 为 5%， 基 于 不 同 slave 节点 数 进行 了 比较 


昌 增 量 更 新 任务 。 


结果 如 图 5 所 示 。 


图 5 可 以 看 出 ， 在 面 对 规模 较 大 的 数据 集 ， 在 支持 度 阔 
等 条 件 相同 的 情况 下 ,数据 节点 之 间 交 换 成 本 所 占 比重 较 低 ， 


十 随 着 slave 节点 数量 的 增加 , 数据 集 分 散 程 度 越 高 , 每 个 节 
点 上 处 理 的 子 数据 集 越 小 ， 相 应 每 次 的 迭代 时 间 越 短 。 因 此 ， 
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实验 结果 证 明了 本 文 算法 在 Hadoop 环境 下 具有 较 好 的 可 扩 


结束 语 
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本 文 以 FIU-tree 算法 为 基础 ， 设 计 并 实现 了 一 种 基 


届 效 率 。 实验 结果 表明 , 本 文 算法 能 高 效 运行 于 Hadoop 平台 ， 
完成 快速 扫描 和 更 新 数据 ， 具 有 较 好 的 可 扩展 性 
态 增 长 


适合 于 在 动 


的 大 数据 环境 对 关联 规则 进行 增 量 更 新 。 


—$— PFP-Growth 
一 茵 ~- 本 文 算法 


之 3 
slave 节 点 数量 


5 不 同 slave 接点 数 算法 运行 时 间 比 较 
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